class: inverse,left, middle background-image: url(data:image/png;base64,#background.png) background-size: cover <img src="data:image/png;base64,#LOGO_DIPLOMADO.png" width="500px"/> ##Módulo 2: EstadÃstica espacial y geoestadÃstica ### Validación Javiera Aguayo T.<br> javiera.aguayo@pucv.cl<br> .large[<b><a href="https://www.pucv.cl/uuaa/site/edic/base/port/labgrs.html">LabGRS</a> | Octubre 2023</b>] <br> --- class: center,middle background-image: url(data:image/png;base64,#labgrs_logo.png) background-size: 35% --- ##Contenidos .pull-left[ 1) Etapa 4 Modelado GeoestadÃstico: Validación - ¿Como podemos validar nuestra predicción? 2) Tipos de validaciones: - Error cuadrático medio - Validación Cruzada ] .pull-right[ <right><img src="data:image/png;base64,#https://ucsbcarpentry.github.io/CustomDC-R/fig/r_rollercoaster.png" width="500px"/></right> ] --- ## Etapa 4 Modelado GeoestadÃstico: Validación ### ¿Como podemos validar nuestra predicción? El mapa de varianza no es suficiente por sà solo para validar nuestra predicción, por lo que debemos aplicar una técnica de validación que nos muestre o **indique que la estimación realizada proporciona valores lo más cercanos posibles a los verdaderos valores muestreados.** ``` ## [using ordinary kriging] ## [using ordinary kriging] ``` <img src="data:image/png;base64,#DIPGEOPR_02_7_files/figure-html/unnamed-chunk-1-1.png" width="100%" /> --- ##Tipos de Validaciones: ###**Error Cudrático Medio (Mean Squared error)** .pull-left[ Se conoce como un tipo de validación simple, que consiste en repartir aletoriamente los datos en dos conjuntos, un conjunto de entrenamiento y un conjunto de validación. Tiene como objetivo medir el error cuadrático medio de las predicción del modelo, a partir del cálculo de la diferencia cuadrada entre el resultado observado y los valores predichos, y luego calcula la media (promedio) de ellos. ] .pull-right[ <center><img src="data:image/png;base64,#formula_mse.png" width="500px"/></center> <center><img src="data:image/png;base64,#P_base.png" width="400px"/></center> ] --- ###**Ventajas y desventajas de la validación por "Error cuadrático medio"** .pull-left[ ### _Ventajas:_ - Se puede implementar en bases de datos abundantes - La validación no se hace con el mismo conjunto de datos con los que se hace la predicción. ] .pull-right[ ### _Desventajas:_ - La estimación del error es altamente variable, ya que depende del n° de observaciones que se incluyan como parte del conjunto de entrenamiento o del conjunto de validación. - Al excluir parte de las observaciones, se dispone de menos información con la que entrenar el modelo y, por lo que se reduce la capacidad de estimación del mismo. ] --- ##Tipos de Validaciones: ###**Validación Cruzada** #### _Leave One Out Cross-Validation (LOOCV)_ .pull-left[ Es un método de validación iterativo que consiste en repetir un _x_ número de predicción, según _x_ número de datos muestreados y en cada predicción emplea como conjunto de entrenamiento todas las observaciones disponible excepto una, que es excluida para ser utilizada como validación. <center><img src="data:image/png;base64,#formula_cross_v.png" width="500px"/></center> ] .pull-right[ <center><img src="data:image/png;base64,#P_base.png" width="500px"/></center> ] --- <center><img src="data:image/png;base64,#P_cross_v.png" width="700px"/></center> --- ###**Ventajas y desventajas de la "Validación Cruzada"** .pull-left[ ### _Ventajas:_ - A diferencia de la validación por "Error cuadrático medio", permite reducir la variabilidad que se origina si se divide aleatoriamente las observaciones únicamente en dos grupos. - El proceso utiliza todos los datos disponibles tanto para entrenamiento como para validación. ] .pull-right[ ### _Desventaja:_ - Una desventaja estadÃstica es que a mayor número de puntos, payor será la cantidad de recursos computacionales para la iteración del proceso. - Al utilizar todas las observaciones como parte del entrenamiento, algunos estadiscos sugieren que se sobreajusta el modelo. ] --- ###**Validación Cruzada** A continuación seguiremos desarrollando el script de Interpolación por Kriging Ordinario, en donde se estimó la **temperatura (°C)** a partiir de datos muestreados, para toda la provincia de Cauquenes. Para llevar a cabo la validación cruzada, se implementará la función `krige.cv()` del paquete **gstat**, que permite realizar una validación cruzada (LOOCV), utilizando como parámetros: la fórmula de Kriging, la localización de los datos, nuestra base de datos y el modelo estimado en base al variogram experimental ajustado. ```r ## Calcular la validación cruzada validacion_cruzada <- krige.cv(formula=t_mean1~1, locations = ~X+Y, data = datos_temp_cauquenes, model = v_ajustado) ``` --- ###**Validación Cruzada** ```r ## Revisión del calculo de validación str(validacion_cruzada) ``` ``` ## 'data.frame': 150 obs. of 8 variables: ## $ var1.pred: num 23.9 45 37.8 21.5 27.8 ... ## $ var1.var : num 20.3 19.9 25.7 17.3 24.4 ... ## $ observed : num 21 44.4 41.6 30.3 24.1 ... ## $ residual : num -2.818 -0.633 3.793 8.791 -3.663 ... ## $ zscore : num -0.626 -0.142 0.748 2.111 -0.741 ... ## $ fold : int 1 2 3 4 5 6 7 8 9 10 ... ## $ X : num 193065 195852 211683 194212 184142 ... ## $ Y : num 6040388 6005597 6010696 6040574 6053799 ... ``` --- ###**Validación Cruzada** Una vez calculados los Z-scores, se puede analizar estidisticamente el comportamiento de la validación. **Histogrma:** ```r hist(validacion_cruzada$zscore, freq=FALSE) lines(density(validacion_cruzada$zscore),col="blue") ``` <img src="data:image/png;base64,#DIPGEOPR_02_7_files/figure-html/unnamed-chunk-4-1.png" width="100%" /> --- ###**Validación Cruzada** **Gráficos de Dispersión:** <img src="data:image/png;base64,#DIPGEOPR_02_7_files/figure-html/unnamed-chunk-5-1.png" width="100%" /> --- ###**Validación Cruzada** **Estadisticas principales de la validación cruzada:** Finalmente para obtener un buen resultado de validación se deben revisar las siguientes medidas estadisticas: ```r mean(validacion_cruzada$zscore)# media es cercana a 0, la validación es correcta ``` ``` ## [1] 0.01464143 ``` ```r sd(validacion_cruzada$zscore) # desviación estandar es cercana a 1, la validación es correcta ``` ``` ## [1] 1.139465 ``` --- ### BibliografÃa 2020.JoaquÃn Amat Rodrigo. Validación de modelos predictivos: Cross-validation, OneLeaveOut, Bootstraping.https://www.cienciadedatos.net/documentos/30_cross-validation_oneleaveout_bootstrap 2014.Edzer J. Pebesma. gstat user's manual. http://www.gstat.org/gstat.pdf 2022.Edzer J. Pebesma.Package ‘gstat’. https://cran.r-project.org/web/packages/gstat/gstat.pdf 2022.Rubén Fernández Casal y Tomás Cotos Yáñez. EstadÃstica Espacial con R. https://rubenfcasal.github.io/estadistica_espacial/validaci%C3%B3n-cruzada-1.html --- class: inverse middle 